AI资讯新闻榜单内容搜索- 大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  大模型
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报
9292 点击    2024-02-04 13:59
波形智能发布中文创作大模型 Weaver 及首款产品「蛙蛙写作」,开放 API,提供企业级定制

波形智能发布中文创作大模型 Weaver 及首款产品「蛙蛙写作」,开放 API,提供企业级定制

波形智能发布中文创作大模型 Weaver 及首款产品「蛙蛙写作」,开放 API,提供企业级定制

2024 年 1 月 29 日,波形智能(AIWaves)于杭州举办首个技术开放日(AIWaves DevDay),正式发布新一代自主研发的中文内容创作垂域 SOTA 大模型「Weaver」,及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 1.0」。

来自主题: AI资讯
5167 点击    2024-01-30 18:52
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报
7601 点击    2024-01-22 14:43
开年首期两亿元新融资,思必驰上线大模型平台后,2023营收增长50%

开年首期两亿元新融资,思必驰上线大模型平台后,2023营收增长50%

开年首期两亿元新融资,思必驰上线大模型平台后,2023营收增长50%

2024 年 1 月 10 日,思必驰宣布完成新一轮首期两亿元融资,资金主要来自产投及国资背景的投资机构。本轮融资用于语言大模型和人工智能对话技术的研发投入,以及加速标准化产品在多场景的应用。

来自主题: AI资讯
5935 点击    2024-01-11 11:48
面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。

来自主题: AI资讯
2799 点击    2023-12-18 14:21
 4GB 显存单卡居然能跑 70B 大模型了!

4GB 显存单卡居然能跑 70B 大模型了!

4GB 显存单卡居然能跑 70B 大模型了!

大语言模型需要消耗巨量的GPU内存。有可能一个单卡GPU跑推理吗?可以的话,最低多少显存?70B大语言模型仅参数量就有130GB,仅仅把模型加载到GPU显卡里边就需要2台顶配100GB内存的A100。

来自主题: AI资讯
7506 点击    2023-12-07 11:00
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了「整个江山」。

来自主题: AI资讯
6124 点击    2023-12-05 16:33
GPT成熟之路官方笔记 | OpenAI开发者日

GPT成熟之路官方笔记 | OpenAI开发者日

GPT成熟之路官方笔记 | OpenAI开发者日

ChatGPT产品打造的细节,现在OpenAI自己交了个底。 并且这波干货分享真是信息量满满,包括但不限于:ChatGPT背后的产品和研发团队如何协作 大模型应用如何从原型走向成熟 OpenAI如何优化大模型性能

来自主题: AI资讯
6013 点击    2023-11-26 14:30
李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

李开复回应 Yi 大模型套壳 LLaMA 争议:受益于开源也贡献开源

针对近日零一万物被质疑完全使用 LLaMA 架构,只对两个张量(Tensor)名称做修改,李开复在朋友圈进行了回应。

来自主题: AI资讯
4929 点击    2023-11-17 10:42
元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法

元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法

元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法

在 10 月 28 日举办的 CNCC 2023「超智融合 AI 大模型应用落地发展论坛」上,智子引擎发布了「元乘象 Chatimg3.0」,展示了多模态通用生成模型「元乘象 Chatimg3.0」的最新进展与落地探索。

来自主题: AI资讯
5969 点击    2023-10-29 23:07